Open Interpreter 本地模型深度体验:功能升级,离 LLM OS 还有多远?
引言
今年1月,我详细介绍过Open Interpreter。几个月过去了,它有了很多更新,今天再来详细介绍一下。
Open Interpreter功能
文件和代码操作:1) 管理文件和文件夹:复制、移动、删除、查找文件等。2) 编写和运行代码:支持多种编程语言,如 Python、JavaScript 等。3) 自动化任务:编写脚本自动执行重复性操作。 系统交互:1) 获取系统信息:查看硬件规格、网络状态、运行进程等。2) 控制应用程序:打开、关闭、监控应用程序。3) 执行命令行指令:无需离开当前界面即可执行系统命令。 数据处理和分析:1) 读取和处理数据:从文件、数据库、网络获取数据。2) 数据清洗和转换:整理、过滤、格式化数据。3) 数据分析和可视化:进行统计分析,生成图表展示数据规律。 网络和互联网操作:1) 下载和上传文件:从网络下载文件,或将本地文件上传到服务器。2) 发送邮件:自动发送邮件通知或报告。3) 网页抓取:从网页提取数据。 设计和多媒体:1) 网站设计:使用 HTML、CSS 和 JavaScript 设计简单的网站。2) 照片编辑:使用 PIL 或 OpenCV 等 Python 库完成基本的图片编辑任务。3) 视频处理:使用 Python 的 MoviePy 库编写脚本以完成基本的视频处理任务。4) 创建动画:使用 JavaScript 或 CSS 创建基本动画。5) 用户界面设计:为应用程序设计简单的用户界面。
新的模型命令
Groq(免费的API)
interpreter --api_base "https://api.groq.com/openai/v1" --api_key "xxx" --model "llama3-70b-8192" --context_window 8192
together ai/llama3 70B (注册送25$)
export TOGETHER_API_KEY=xxx
interpreter --model together_ai/META-LLAMA/LLAMA-3-70B-CHAT-HF --context_window 8192
Claude
export ANTHROPIC_API_KEY=xxx
interpreter --model anthropic/claude-3-haiku-20240307
或
interpreter --model anthropic/claude-3-opus-20240229
此外,Open Interpreter 官方还推出Local III 。
Local III 引入了一个免费托管的可选模型 i
(现阶段是 Llama3-70B ),用户与 i
模型的对话将用于训练 Open Interpreter 自己的开源计算机控制语言模型。在开源模型和训练集之前,Open Interpreter将删除个人身份信息。
interpreter --model i
Open Interpreter Local III 更新
新闻链接:
https://changes.openinterpreter.com/log/local-iii
记得使用新功能前,先pip install --upgrade open-interpreter
Open Interpreter 官方放了2个视频,很有意思。
interpreter --local --vision
图片重命名
视频显示的是一个Mac电脑的桌面截图,其中有两个文件夹和一个终端窗口。
左侧有两个文件夹:一个名为“TB Negative”,另一个名为“TB Positive”。 终端窗口中显示了一条命令和一些文本内容:
$ interpreter --codestral
> Could you train a model to identify tuberculosis using the lung scan PNGs in these two folders? Please split into train/test folders first. /Users/kilianlucas/Desktop/TB Negative /Users/kilianlucas/Desktop/TB Positive
这段文本的意思是请求解释器(interpreter)训练一个模型来识别肺部X光片中的结核病(tuberculosis)。它要求先将这两个文件夹中的PNG图像分成训练(train)和测试(test)文件夹,然后进行训练。
此次更新总结
包括:
易于使用的本地模型浏览器 与 Ollama 等推理引擎深度集成 为 Llama3、Moondream 和 Codestral 等开源模型提供自定义配置文件 一套提高离线代码解释可靠性的设置
本地模型浏览器
Local III 使本地模型的使用变得前所未有的容易。通过交互式设置,用户可以:
选择推理提供器 选择模型 下载新模型
使用以下标志启动本地模型浏览器:
interpreter --local
优化配置文件
Open Interpreter 团队对两个 SOTA 本地语言模型 codestral 和 llama3 进行了广泛的实验。用户可以使用以下标志配置 Open Interpreter 以使用推荐设置:
interpreter --profile codestral.py # 为 Codestral 设置最佳设置
interpreter --profile llama3.py # 为 Llama3 设置最佳设置
interpreter --profile qwen.py # 为 Qwen 设置最佳设置
注意:profile
标志将从 profiles
目录中的文件加载设置,用户可以通过运行以下命令打开该目录:
interpreter --profiles
本地视觉
发送到本地模型的图像将呈现为由 Moondream(一种小型视觉模型)生成的图像描述。该模型还会接收从图像中提取的 OCR。
interpreter --local --vision
实验性本地操作系统模式
通过启用本地视觉,Local III 还启用了实验性本地操作系统模式支持。
在此模式下,Open Interpreter 可以控制用户的鼠标、键盘并查看屏幕。LLM 可以通过单击由开源 Point 模型识别的图标与用户的计算机进行交互。
interpreter --local --os
我的使用体验
interpreter --local --vision
图片重命名
interpreter调用的是Moondream视觉模型,我在之前的文章中介绍过Moondream。
给图片加水印
interpreter --local
给文件分类
由于我的下载目录文件太多,想了解有哪些文件组成,于是就让Open Interpreter帮我处理。
这里用的是本地codestral模型。
查询计算机空间使用情况
画图表
获取英伟达股价会出错
我试了本地的codestral、llama3 8B、yi:9b和API接入的Claude Opus都没有成功。
下载视频
小技巧,指明一个优秀的库让LLM使用,就成功了一半。
总结文章
我本地的LLM都不能总结文章,换成llama 3 70B也不行,Claude haiku和Opus都可以。
处理视频
本地LLM和Claude haiku还有不少差距,例如下图所示,haiku会先判断我的电脑是否已安装FFmpeg,本地LLM会先直接让我安装。
interpreter --local --os
该模式还不是很稳定
不能完成打开 typora 并新建文件的任务。
结语
根据我的使用体验,我很喜欢Open Interpreter自动分解任务,自动写代码,并自动反思错误的方式,当然,现在它还有很多问题。
最好搭配它的模型是GPT-4和Claude Opus,它的缺点很明显,就是太贵。如果用本地LLM,会遇到很多瓶颈,如你很熟悉各种库,那是可以明确告诉Open Interpreter让它帮你完成任务,如果不熟悉,就会很容易陷在死循环里。
Open Interpreter现在能完整的任务还比较简单,离LLM OS还有很远距离。
类似Open Interpreter的还有GitHub Copilot 的命令行界面(CLI),我之前也介绍过。
明天我会介绍另一个类似Open Interpreter的命令行AI工具,敬请期待。
欢迎在评论区留言,让我们一起交流进步。
精选历史文章,请看这里:
Open Interpreter:自然语言界面控制计算机 | 分享使用体验
实测在Mac上使用Ollama与AI对话的过程 - 模型选择、安装、集成使用记,从Mixtral8x7b到Yi-34B-Chat